نشست علمی پردازش هوشمند زبان عربی با موضوع بررسی تحلیلگر صرفی نور
اشاره
مرکز تحقیقات کامپیوتری علوم اسلامی (نور)، در حوزه متنکاوی فعّالیّتها و دستاوردهای متعدّد و ارزندهای داشته است. متنکاوی در سه مرحله: آمادهسازی، پردازش و تحلیل متون، در روند تولید محصولات نور جلوه دارد. در این میان، پردازش متون عربی، به سبب دشواریها و پیچیدگیهای خاصّی که این زبان برخوردار است، همواره با چالشهای جدّی مواجه است. ازاینرو، تحلیلگرهای صرفی در دنیا، با مشکلات و کاستیهایی جدّی روبهرو بودهاند. این امر، مرکز نور را بر آن داشت تا از سال 1389 اقدام به تولید یک تحلیلگر صرفی بومی نماید.
در این راستا، هشتمین نشست از سلسله نشستهای علمی علوم اسلامی و انسانی دیجیتال با موضوع «پردازش هوشمند زبان عربی (جلسه اوّل) با محوریت تحلیلگر صرفی نور»، در 19 خرداد 1401ش در سالن اجتماعات مرکز تحقیقات کامپیوتری علوم اسلامی (نور) برگزار گردید. دکتر حبیب سریانی (پژوهشگر گروه علمی قرآن و لغت نور) و حجّتالاسلام سید محمد دانش (توسعهدهنده متنکاوی نور) به عنوان کارشناس، و جناب دکتر محمود شکراللهی (عضو هیأت علمی دانشگاه تبریز) و حجّت الاسلام و المسلمین محمدرضا مدرسی (پژوهشگر حوزه علمیه) به عنوان ناقد در این نشست علمی حضور داشتند. در ذیل، خلاصهای از این نشست علمی، به همراه دستهبندی و تیترگذاری جدید، از نظر خوانندگان عزیز میگذرد. گزارش تفصیلی این نشست، در وبگاه نورسافت انعکاس یافته است.
روش های استخراج خودکار دانش از متون حدیثی
اشاره
حدیث، از منابع متنی مهم در استنباط آموزه های شرعی، عقیدتی و اخلاقی در اسلام است. فزونی منابع حدیثی و ضرورت استفاده از آن در شناخت احکام اسلام، استفاده از فنون خودکار استخراج دانش از متون حدیثی را ضرورت می بخشد. خصوصیات زبانی ویژه متون حدیثی (زبان عربی قدیم و متون روایتگونه)، مستلزم گردآوری و بهره گیری از شیوه های خاص پردازش زبان طبیعی شده است که در متون و زبانهای دیگر استفاده از چنین پردازشهای خاص نبوده است. در این مقاله، نخست استخراج خودکار دانش بر پایه فنون متن کاوی بیان، و پژوهشهای انجام شده برای استفاده از این شیوه ها در استخراج دانش از متون حدیثی، بررسی می شود.
استخراج مفهوم در داده کاوی
مقدمه
استفاده از رایانه در امور مختلف، باعث شده تا داده های بسیاری با سرعت های زیاد در پایگاه داده ها انباشته و ذخیره شوند. پردازش این داده های حجیم، خارج از توان انسان است. تلاش های فراوانی تاکنون انجام شده است تا نرم افزارها و سخت افزارها توسعه پیدا کنند و تولید، ذخیره و انتقال داده ها انجام گردد؛ اما تجزیه و تحلیل این حجم از داده ها توسط رایانه ها، بعد از ذخیره و پردازش، تاکنون انجام نشده است. داده ها در عصر حاضر، قلب تپنده هر سازمان را تشکیل می دهند و هر روز به میزان داده ها در سیستم های اطلاعاتی افزوده می شود. در واقع، سازمان ها در اطلاعات غرق شده اند؛ درحالی که تشنه دانش هستند. این امر، نشانگر آن است که سازمان ها نتوانسته اند از دانش درون داده ها به نحو مناسب استفاده نمایند. در درون حجم عظیمی از داده ها، الگوها و روابط بسیاری میان پارامترهای مختلف به صورت پنهان باقی می ماند که برای برنامه ریزی های استراتژیک و طولانی مدت می تواند حیاتی باشد. بنابراین، نیاز به ابزاری است تا داده ها را به گونه ای پردازش کند تا دانش حاصل از آن را در اختیار تصمیم گیران سازمان قرار دهد. یکی از راهکارهایی که امروزه در این زمینه ایجاد و در حال گسترش است، داده کاوی(1) است. داده کاوی، فرآیند کشف دانش پنهان درون داده هاست که با توصیف، تشریح، پیش بینی و کنترل پدیده های گوناگون پیرامونی، دارای کاربرد بسیار وسیعی در حوزه های مختلف است؛ به گونه ای که مرز و محدودیتی برای کاربرد آن در نظر گرفته نشده و زمینه های کاربردی آن را از ذرات کف اقیانوس تا اعماق فضاء می دانند (شهرابی، 1386).
شبکه واژگانی زبان عربی با استفاده از فرآیند نیمه خودکار در داده های علوم اسلامی
چکیده
غنی سازی محتواهای علوم انسانی و اسلامی، از اهمیت ویژه ای برخوردار است. استفاده از شبکه واژگانی، از مهم ترین راهبردهای تحقیقاتی در رشته های مرتبط با علوم انسانی است. شبکه واژگانی، مجموعه ای از کلمات است که به واسطه ارتباطات معنایی به یکدیگر متصل شده و در سطحی جامع تر از یک لغت نامه در یادگیری یا استخراج اطلاعات مورد نیاز محققان کاربرد دارد. روند فعالیت در دستیابی خودکار به یک شبکه واژگانی منسجم، در گرو پردازش لفظی و پردازش معنایی بر اساس متن کاوی داده های عربی در منابع زبانی دقیق و مناسب است. استفاده از فرآیند ماشینی در هر یک از این مراحل پردازش و یافتن منابع عربی دقیق علوم اسلامی، با چالش های مختلفی رو به رو بوده که در این مقاله، به بررسی برخی جزئیات این طرح، به ویژه بر اساس دادگان موجود در مرکز تحقیقات کامپیوتری علوم اسلامی و روش مقابله با چالش ها پرداخته شده است.
ابهام زدایی هوشمند صرفی نور
چکیده
یکی از چالش های پیش روی پردازش زبان طبیعی زبان عربی، رفع ابهام میان تحلیل های صرفی ممکن یک کلمه به تناسب جایگاه آن کلمه در جمله است. یک تحلیلگر صرفی، به ازای هر کلمه ورودی، ممکن است بیشتر از یک جواب صرفی داشته باشد. تشخیص اینکه کدام یک از تحلیل های ممکن، تحلیل صحیح کلمه مورد نظر است، توسط ابزارهای رفع ابهام صورت می گیرد. این مقاله، به یکی از قوی ترین ابزارهای رفع ابهام اشاره می کند که به صورت خاص، برای تحلیلگر صرفی نور (Noor Morphological Analyzer) طراحی شده است. این ابزار که ابهام زدای صرفی نور (Noor Morphological Disambiguation) نامیده شده، ترکیبی از الگوریتم های یادگیری و قاعده محور است. آزمایش های این تحقیق نشان می دهد که رفع ابهام صرفی نور می تواند با دقت 88 درصد خروجی های تحلیلگر صرفی نور را رفع ابهام نماید.
شناسایی خودکار سیر اشتقاق کلمات در زبان عربی
چکیده
به دست آوردن سیر اشتقاق تصریف از ریشه تا کلمه، پیداکردن کلمات مرتبط و در نهایت، تشکیل خانواده کلمات مربوط به هم، شرایط مساعدی را برای محققان پردازش زبان طبیعی فراهم می کند تا بتوانند از مرحله لفظ به دامنه وسیع لغات هم معنا، آنتولوژی، شبکه معنایی، تحلیل محتوا و در نهایت، درک معنا قدم بگذارند. در این بین، ساخت درخت سلسله مراتبی کلمات مرتبط با هم از ریشه(صرفی) تا برگ(کلمات متن)، اهمیت بسزایی دارد. در این مقاله، به چندین فایده از فواید «تحلیلگر صرفی نور» اشاره شده است. بعضی از این موارد، عملیاتی شده و هم اکنون در حال استفاده هستند و بعضی دیگر نیز نزدیک به اجرا می باشند. از جمله این موارد، بهره برداری در شناسایی خودکار سیر اشتقاق تصریف و تشکیل درخت سلسله مراتبی می باشد. عناصر داخل این درخت، همگی توسط تحلیلگر صرفی نور تولید می گردند. بعد از آن، عملیات دسته بندی و در نهایت ایجاد درخت مذکور صورت می پذیرد. تمام مسیرهای موجود از برگ ها تا ریشه، موضوعیت دارند که در این نوشتار به چند فایده از آن اشاره شده است.
متن کاوی نور از نگاه پژوهشی و فنی
اشاره
مرکز تحقیقات کامپیوتری علوم اسلامی، در بیش از بیست سال فعالیت خود، تاکنون توانسته است با رقومی نمودن منابع مکتوب، حجم عظیمی از دادگان متنی را فراهم آورد. در مرحله بعد، به فرآوری و غنی سازی متون پرداخت و سپس با به کارگیری فناوری های رایانه ای، محیط پژوهشی مناسبی را در ارائه محتوای این متون به گونه ای کارآمد ایجاد نمود و در این مسیر، همواره به توسعه این امکانات می اندیشد. روایات مشابه، صرف ماشینی، برچسب گذاری، خلاصه ساز، خوشه بندی، اِعراب گذاری، رده بندی متن و نیز تحلیل صرفی و نحوی قرآن، از جمله محصولات نور است که تا کنون در حوزه متن کاوی تولید و عرضه شده است.
نظر به جایگاه و اهمیت بحث متن کاوی (Text Mining) در پردازش و تحلیل اطلاعات، خاصه مقوله جدید نظام هوشمند واژگان، مناسب دیدیم گفت وگویی با متولیان این امر در مرکز تحقیقات کامپیوتری علوم اسلامی داشته باشیم. حجت الاسلام مسیح توحیدی، مدیر گروه ادبیات و متن کاوی معاونت پژوهشی، و مهندس احمد ربیعی زاده، مسئول بخش متن کاوی معاونت فنی، هر یک از منظر حوزه کاری و حیطه فعالیت خویش، توضیحات مفیدی را در این باره ارائه نمودند که امید است مورد استفاده علاقه مندان و کارشناسان قرار گیرد.
فنّاوری اطلاعات در خدمت اعراب گذاری احادیث اهل بیت (ع)
اعراب گذاری متون عربی کار با سابقه ای است و پیشینه آن به صدر اسلام باز می گردد. مشهور این است که اصول نقطه گذاری واعراب قرآن را ابوالاسود دوئلی به دستور امام علی ابن ابیطالب پایه گذاری کرده است. با وجود اینکه عربی، زبان مادری عربها بوده است، ولی آنان بر درست نویسی و درست خوانی متن قرآن کریم اهتمام ویژه ای داشته اند و ائمه دین هم بر این مسئله تأکید می نموده اند؛ چنان که وقتی کسی قرآن را نزد امیر مؤمنان(ع) به غلط خواند، حضرت به ابوالاسود دوئلی دستور داد تا اصول نحو عرب را تدوین نماید، که با راهنمایی آن حضرت(ع) و به کوشش ابوالاسود پایه بنیادین و اصول نحو عرب شکل گرفت.
گفته می شود نخستین نظام اعراب گذاری که در نظر گرفته شد، عبارت از این بود که فتحه (زبر) با گذاردن یک نقطه بالای حرف، و کسره (زیر) باگذاردن یک نقطه زیر حرف، و ضمه (پیش) با گذاردن یک نقطه در داخل شکل حروف نشان داده و روی حرف ساکن نیز دو نقطه می گذاشتند. این اقدام اوّلین گام در پیدایش علم نحو و ادبیات عرب محسوب میشود.
کاربرد متن کاوی در سازمان دهی دانش
چکیده
سازمان دهی دانش و متن کاوی، در بازیابی دقیق اطلاعات کاربرد بسیاری دارند. از این رو، متن کاوی می تواند کارکردهای بسیاری در بهبود سازمان دهی دانش داشته باشد. اگرچه متن کاوی، به ویژه در بخش یادگیری ماشینی و به دست آوردن اسناد و نمونه های آموزشی، نیازمند نظام های اصطلاح نامه، طبقه بندی، فهرست نویسی و نمایه سازی است، سازمان دهی برای تسریع کار خود، نیازمند فنون متن کاوی و نتیجه کارهای آن خواهد بود تا هم سرعت کار خویش را افزایش دهد و هم هزینه هایش را بکاهد. در این نوشتار، به کارکردهای متن کاوی در حوزه سازمان دهی دانش پرداخته خواهد شد.
وضعیت موجود خلاصهسازی خودکار متون فارسی
چکیده
با گسترش روزافزون حجم اطلاعات، نیاز به سیستمهای کامپیوتری جهت پردازش و تحلیل اطلاعات بیشتر احساس میشود. از آنجا که درصد قابل توجهی از اطلاعات تولید شده به صورت متنی غیر ساختار یافته(1) و نیمهساختار یافته(2) است، سیستمی که بتواند این اطلاعات را تحلیل و پردازش کند، بهشدت مورد توجه قرار خواهد گرفت. یکی از انواع سیستمهایی که در تحلیل و پردازش متون وجود دارد، سیستمهای خلاصهساز متن(3) است که حجم زیادی از متن را دریافت نموده و بر اساس الگوریتمها و تکنیکهای مختلف، آن را خلاصه مینماید. این مقاله به معرفی فرآیند خلاصهسازی متون فارسی میپردازد.